语音识别的RTF和RTX评价指标
语音识别除了衡量语音识别的准确度之外,另外一个重要的指标就是处理的速度和延迟。其中RTF为衡量实时语音识别处理速度的重要指标,RTX为衡量离线语音识别处理速度的重要指标。 1 RTF RTF(Real Time Factor),为实时语音识别的处理速度评价指标,其计算公式如下 RTF=\frac{A…
- 深度学习
- 2023-10-30
深度学习 – 语音识别框架wenet的非流式与流式混合训练机制
1 wenet的非流式与流式混合训练机制 wenet实现了语音识别非流式与流式混合训练的机制。通过细读源码,其主要是通过动态修改网络的Encoder层(在wenet中主要使用了TransformerEncoder和Conformer)的attention mask来影响Encoder层中Self-A…
- 深度学习
- 2022-08-11
深度学习 – 语音识别框架wenet源码wenet/utils/mask.py中的mask机制
在阅读工业级语音识别框架wenet的源码的过程中,wenet/utils/mask.py中提供的各种mask函数非常重要,其实现了wenet论文Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recog…
- 深度学习
- 2022-08-10
深度学习 – NLP自然语言处理与语音识别中常用的标识符等的含义
1 NlP自然语言处理与语音识别中常用的标识符的含义 在NLP进行文本处理以及语音识别处理语音对应标签时我们经常会看到一些特殊的标识符,一些常见的标识符及其含义如下 <blank>/<BLANK>:表示空白符号; <unk>/<UNK>:低频词或未在词…
- 深度学习
- 2022-08-01